歌声合成 Vocal Synthesizer - kii's memo

歌声合成 Vocal Synthesizer

音声合成 Speech Synthesisの歌声版

ボーカルシンセサイザー - Wikipedia

特徴

楽器としての歌声

人間の歌声と比べて

ロングトーン、ハイトーン、早口などの歌唱表現が可能に

作曲ができるが、歌唱できない、人のための制作支援

仕組み

物理モデル

人間人の生体構造をモデル Model化

声道や鼻道

メリット

パラメータと物理量が直結

直感的に構造が理解しやすい

デメリット

精度を上げるためには、パラメータが膨大に必要

音声を時間領域の波形として表現、断片を連結

メリット

発音単位では自然な音声

デメリット

データ量が膨大

接続部が不自然

機械学習 Machine Learning

評価軸

様々な楽器をリアルタイムに切り替えながら演奏

発声タイミング

音符のタイミングを母音に合わせる

音程、韻律

芸術としての美しさ

伸ばし音あるか

ノイズがないか

必要要件

合成された歌唱の歌詞が聞き取れるか？

人間の歌声として不自然でないか？

あるとうれしい

息継ぎ,ゆらぎ

システム全体として使いやすいか？

既存の音楽制作に連携しやすいか？

例

VOCALOID ボーカロイド